iT邦幫忙

2025 iThome 鐵人賽

DAY 14
0
AI & Data

30 天打造 App 評論洞察系統:用 AI 讓產品團隊更懂用戶系列 第 14

【Day 13】資料標註:工具選擇與實作流程

  • 分享至 

  • xImage
  •  

在上一篇中,我們確定標註目標(情緒分類、主題分類)之後,下一步就是進行實際的資料標註。我們需要先決定要使用什麼標註工具以及標註的工作流程。


常見的標註工具選擇

這裡整理幾個常見的標註工具,並列出優缺點,讓大家在不同情境下能做出選擇:

開源工具

Label Studio

  • 優點:支援多種資料型態(文字、影像、音訊)、可自訂標籤、與 ML pipeline 整合方便
  • 缺點:需要自行架設伺服器,對新手略有門檻

doccano

  • 優點:專為 NLP 任務設計,簡單易用,適合文字分類、NER 等標註
  • 缺點:功能較簡單,對影像或音訊不支援

雲端平台

Prodigy(付費)

  • 優點:與 spaCy 深度整合,支援主動學習(active learning)
  • 缺點:商業授權費用高,適合企業或研究單位

Google Cloud Data Labeling / AWS SageMaker Ground Truth

  • 優點:適合大規模專案,能與雲端 ML workflow 無縫銜接
  • 缺點:上手需要學習成本,通常適合企業級專案

簡單表格方案

Google Sheet / Excel

  • 優點:學習成本低,適合少量資料或快速 PoC
  • 缺點:不支援進階功能,難以擴展

標註實作流程建議

不論你選擇哪種工具,標註流程通常可以分成以下幾步:

Step 1:標籤定義與規範制定

  • 先將「情緒分類(正面、負面、中性)」與「主題分類(帳號、搜尋、商品資訊、結帳、售後…)」定義清楚
  • 撰寫一份「標註規範文件」,提供範例,確保不同標註者理解一致
  • (示例)可依電商顧客購買流程進行主題分類並給予定義
    https://ithelp.ithome.com.tw/upload/images/20250903/20169646RpA2ULzX5R.png

Step 2:工具環境準備

  • 開源工具(如 doccano、Label Studio):安裝並建立專案
  • 表格方案:建立欄位(例如:review_textemotion_labeltopic_label
  • 雲端方案:建立 dataset 並設定標籤

Step 3:標註任務分配

  • 將資料切分給不同標註人員
  • 設定進度追蹤,避免遺漏或重複標註

Step 4:標註作業與質量檢查

  • 透過工具進行逐筆標註
  • 定期抽樣檢查一致性(inter-annotator agreement, IAA)
  • 若標註結果有歧義,需回到規範文件修正

Step 5:資料匯出與整合

  • 將標註好的資料匯出成 CSV / JSON 格式
  • 與原始評論資料進行合併
  • 準備進入模型訓練階段

上一篇
【Day 12】資料標註規則與主題分類定義
系列文
30 天打造 App 評論洞察系統:用 AI 讓產品團隊更懂用戶14
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言